MulFeRL: Retroalimentación verbal para aprendizaje por refuerzo en multiturno MulFeRL mejora el aprendizaje por refuerzo usando retroalimentación verbal en múltiples turnos para superar recompensas escalares y potenciar el razonamiento. 2026-06-03 · 2 min